遷移學習 D1 - 領域自適應 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 14

AI & Data

遷移學習 D1 - 領域自適應

15th鐵人賽

953 瀏覽

在昨天的遷移學習中，有個重要的議題，那就是如何讓一個在某個領域（例如：影像辨識）上訓練得很好的模型，能夠在另一個領域上也表現出色? 這個就是領域自適應要做的事情

目標是將原始數據分布（稱為源域）盡可能好地遷移到新的數據分布（稱為目標域）

源域和目標域之間可能存在各種差異，而這些差異可以分為以下三種主要情況：

同質適應 (Homogeneous Adaptation)：在這種情況下，目標域的數據在特徵空間上與源域的相似，但它們的數據分佈存在差異，也就是說，這是由於數據分佈的改變而引起的適應問題
異構適應 (Heterogeneous Adaptation)：在這種情況下，目標域與源域的特徵空間不同，就表示，即使數據分佈相似，我們也需要處理特徵空間的不匹配問題
非等適應 (Non-equal Adaptation)：這是最具挑戰性的情況之一，因為在這種情況下，特徵空間不同且數據發生了偏移，代表源域和目標域之間存在很大的差異，通常，為了彌補這種差距，我們就會需要使用中間輔助數據，來讓源域和目標域之間的距離縮小

我們會將源域和目標域的數據映射到一個共同的特徵空間，使它們在該特徵空間中的距離盡可能接近。以下是三種主要的方法：

樣本自適應
對源域的資料點進行加權採樣，調整源域資料的權重，以使經過重新採樣的源域資料點的分佈與目標域資料點盡可能一致，然後，在重新採樣的數據集上重新訓練分類器
特徵層面自適應
將源域和目標域投影到一個共同的特徵子空間，以確保它們在該子空間中的數據分佈一致
模型層面自適應
修改源域的誤差函數，並考慮目標域的誤差。這可以通過以下兩種方式實現：
- 在設計模型的時候，可以加入一些約束，以確保源域和目標域之間的距離會較近
- 在不斷地迭代中，逐漸對目標域的資料點進行分類，將高可信度的資料點添加到訓練集中，並更新模型